如何通过网络日志分析蜘蛛访问以及网站的现状
发布时间:2013-11-19 浏览:187打印字号:大中小
“网站日志”是记录web服务器接收处理请求以及运行时错误等各种原始信息。网站日志在ftp里可以找到,以log结尾的文件!如图:
上图是笔者网站26号的网站日志,那么我们如何去分析它
我们可以看到上图中的第一段代码:
5.10.83.26 - - [25/Oct/2013:01:32:40 +0800] "GET /flxc/28.html HTTP/1.1" 200 13293 "-" "Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)"
5.10.83.26表示访问你网站的IP
[25/Oct/2013:01:32:40 +0800]访问时间(年月日时分秒)+时区
GET表示服务器的动作
/flxc/28.html HTTP/1.1表示根据HTTP/1.1协议抓取/flxc/28.html 这一个页面
200表示服务服务器的响应状态代码,那么200这个代码表示200 代表蜘蛛成功抓取了页面更新的信息!(附:关于其他服务器的响应代码可到百度搜索,解释的很清楚)
13293 表示抓取的字节有多少
"Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)表示浏览器用户浏览器的版本操作系统的版本信息。
通过上的分析主要抓住什么时间点什么搜索引擎过来爬行并抓取了什么页面,以及爬行的端口
当然一天那么多个ip访问你的网站,作为站长的不可能一条条的去看。我们可以借助工具或者根据你网站的搜索引擎来看
比如你只做百度,那么你可以屏蔽其他搜索引擎来抓取,这样看到的就是百度蜘蛛的信息。
当然大部分站长都还是借用工具去了解网站日志!在这里我也分享一下26号的网站日志情况:
我们可以看到日记打开后的整个页面状况,有些情况一目了然。这里不一一分析:小七选几个要注意的点来分析一下:
首先:看到“页面抓取”
你会发现,目前蜘蛛的抓取页面状况。因为笔者主要是做百度搜索引擎。这里就从百度搜索引擎来分析,对于其他的搜索引擎可以按图照搬:
1、你可以看到百度在抓取的时候出现了index.html这个页面,这是dede里出现的一种状况。设置它的页面返回时是/,而不是/index.html
2、sitemap.xml 这文件的作用简单说一下,第一帮助网站收录 第二,让搜索引擎更加了解你的网站 ,那么这里有个技巧,把sitemap.xml放到根目录下的同时,把对应的指令放到robots.txt里面
3、可以看到蜘蛛主要访问的是主页,那么你近期可能要做的引导蜘蛛访问你的栏目页!
再看到“关键词分析”
可以看到蜘蛛抓取进入我网站的大部分是网址占了绝大部分。那比如我网站的定位是垃圾分类培训_垃圾分类宣传_社区垃圾分类解决方案服务商,让社区应我们的努力而变的更美。那么我可以选垃圾分类来做主关键词,那么表示近期应该大部分外链以垃圾分类描文本的形式来做
接着:我们看到蜘蛛状态
可以看我目前的网站404页面的链接,这样你可以及时清理死链!或者到站长平台提交死链!
这样分析下来,相信你对自己的网站现状改做什么,应该比别人清楚,当然利用这软件的不足之处,就是无法看到蜘蛛访问的时间点。
上图是笔者网站26号的网站日志,那么我们如何去分析它
我们可以看到上图中的第一段代码:
5.10.83.26 - - [25/Oct/2013:01:32:40 +0800] "GET /flxc/28.html HTTP/1.1" 200 13293 "-" "Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)"
5.10.83.26表示访问你网站的IP
[25/Oct/2013:01:32:40 +0800]访问时间(年月日时分秒)+时区
GET表示服务器的动作
/flxc/28.html HTTP/1.1表示根据HTTP/1.1协议抓取/flxc/28.html 这一个页面
200表示服务服务器的响应状态代码,那么200这个代码表示200 代表蜘蛛成功抓取了页面更新的信息!(附:关于其他服务器的响应代码可到百度搜索,解释的很清楚)
13293 表示抓取的字节有多少
"Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)表示浏览器用户浏览器的版本操作系统的版本信息。
通过上的分析主要抓住什么时间点什么搜索引擎过来爬行并抓取了什么页面,以及爬行的端口
当然一天那么多个ip访问你的网站,作为站长的不可能一条条的去看。我们可以借助工具或者根据你网站的搜索引擎来看
比如你只做百度,那么你可以屏蔽其他搜索引擎来抓取,这样看到的就是百度蜘蛛的信息。
当然大部分站长都还是借用工具去了解网站日志!在这里我也分享一下26号的网站日志情况:
我们可以看到日记打开后的整个页面状况,有些情况一目了然。这里不一一分析:小七选几个要注意的点来分析一下:
首先:看到“页面抓取”
你会发现,目前蜘蛛的抓取页面状况。因为笔者主要是做百度搜索引擎。这里就从百度搜索引擎来分析,对于其他的搜索引擎可以按图照搬:
1、你可以看到百度在抓取的时候出现了index.html这个页面,这是dede里出现的一种状况。设置它的页面返回时是/,而不是/index.html
2、sitemap.xml 这文件的作用简单说一下,第一帮助网站收录 第二,让搜索引擎更加了解你的网站 ,那么这里有个技巧,把sitemap.xml放到根目录下的同时,把对应的指令放到robots.txt里面
3、可以看到蜘蛛主要访问的是主页,那么你近期可能要做的引导蜘蛛访问你的栏目页!
再看到“关键词分析”
可以看到蜘蛛抓取进入我网站的大部分是网址占了绝大部分。那比如我网站的定位是垃圾分类培训_垃圾分类宣传_社区垃圾分类解决方案服务商,让社区应我们的努力而变的更美。那么我可以选垃圾分类来做主关键词,那么表示近期应该大部分外链以垃圾分类描文本的形式来做
接着:我们看到蜘蛛状态
可以看我目前的网站404页面的链接,这样你可以及时清理死链!或者到站长平台提交死链!
这样分析下来,相信你对自己的网站现状改做什么,应该比别人清楚,当然利用这软件的不足之处,就是无法看到蜘蛛访问的时间点。